📌Какой вектор лучше: Dense vs Multi-vector embeddings
Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.
📍Dense-векторы (single vector per doc): — быстрые — экономные по памяти — слабо улавливают контекст — «плавают» при сложных запросах 👉 подходят для простого поиска
📍Multi-vector (late interaction): — вектор на каждый токен — сравниваются токены запроса и документа напрямую — лучше качество на сложных задачах — выше требования к хранилищу 👉 баланс между скоростью и точностью
📍Late interaction ≈ золотая середина: — быстрее, чем cross-encoders — точнее, чем dense-векторы
📍Примеры моделей: — ColBERT — для текстов — ColPali — multimodal: текст + PDF как картинки — ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)
Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.
📌Какой вектор лучше: Dense vs Multi-vector embeddings
Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.
📍Dense-векторы (single vector per doc): — быстрые — экономные по памяти — слабо улавливают контекст — «плавают» при сложных запросах 👉 подходят для простого поиска
📍Multi-vector (late interaction): — вектор на каждый токен — сравниваются токены запроса и документа напрямую — лучше качество на сложных задачах — выше требования к хранилищу 👉 баланс между скоростью и точностью
📍Late interaction ≈ золотая середина: — быстрее, чем cross-encoders — точнее, чем dense-векторы
📍Примеры моделей: — ColBERT — для текстов — ColPali — multimodal: текст + PDF как картинки — ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)
Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.
To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.
Newly uncovered hack campaign in Telegram
The campaign, which security firm Check Point has named Rampant Kitten, comprises two main components, one for Windows and the other for Android. Rampant Kitten’s objective is to steal Telegram messages, passwords, and two-factor authentication codes sent by SMS and then also take screenshots and record sounds within earshot of an infected phone, the researchers said in a post published on Friday.
Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение from tr